GPTとは何か Transformerの視覚化 | Chapter 5 Deep Learning
https://www.youtube.com/watch?v=KlZ-QmPteqM&t=36s
GPTの意味
GPT は Generative Pre-trained Transformer の略 音声をテキストに変換
テキストを音声に変換
テキストを画像に変換
GPT-3の Transformer はどうやってテキストを生成しているのか?
入力からテキストを生成
これは実際には単語ごとに分けられているのではない
が、似たような感じ
それぞれのトークンがどのベクトルを表すかのリストがある
ベクトルの集合として成り立っていて、ひとつの列がひとつのトークンのベクトルをあらわす
これは周囲の文脈の情報を持たない
GPT-3では埋め込み行列に50,257のトークンがある ベクトルの次元と掛け合わせると、617,558,016の数を持つ行列であることがわかる
各トークンはGPT-3では12,288次元のベクトルとして表されている
似たような単語は似た方向のベクトルを持つ
また、似たような単語同士も似たような差異を持つ
例:男性と女性のベクトルの差は王と女王のベクトルの差とだいたい同じ
なので、男性と女性のベクトルの差を知っていれば王から女王を探すことが可能
(今のモデルでは queen にバンドなどの別の意味が学習されたのでちょっと遠くなっているらしい)
文中の単語は周辺の単語と関連している
同じ単語だが、意味を複数持つ単語がある
周囲の単語からどの意味をもつかを推測することができる
埋め込み行列のベクトルに意味を付与する行列
周りの語によって数値を変える
アテンションブロックのサイズのこと
GPT-3では2,048
12,288次元のベクトルが2,048個連なったものであり、25,165,824の数を持つ行列である
出力の処理
出力はトークン数50,257次元のベクトルになる
50,257の行、12,288の列を持つ(617,558,016の数)
温度が大きいとき、小さな値に重みを与える
温度が小さい時、大きな値が1に近づく
温度による出力の違い
温度が0のとき、最も確からしい単語を選ぶようになる
温度が高くなると、より低い確率の単語を選ぶチャンスが与えられる
オリジナリティが出る
内容がめちゃくちゃになるリスクもある
GPT-3では2より高い温度は選べないようになっている
最近線形代数をやっているので行列計算のところのイメージがつかめてうれしいcak.icon